/ 3D 世界模型

3D 世界模型 AI

寻找最新最佳的3D 世界模型人工智能。浏览最全面的AI数据库，每日持续更新。

PhysiFormer

PhysiFormer 是一种用于生成物理合理 3D 物体运动的扩散 Transformer。给定每个顶点的初始位置、速度以及物体材料类型，它会在世界坐标中采样完整时域的顶点轨迹，使模型能够在不依赖视角相关像素空间的情况下推理刚体、弹性体和混合材料的交互。

该模型将轨迹预测表述为网格坐标上的去噪扩散过程。跨时间、空间和物体的因式分

AnchorWorld

NewFree世界模型数据集

AnchorWorld 是一个具身第一人称世界模拟框架，支持基于视图的演化定制。它利用人体动作控制和与姿态关联的锚点视图，让智能体或玩家能够以第一人称视角探索定制化世界。

每个锚点视图都提供 RGB 图像、用于空间定位的 3D 姿态，以及说明场景应如何变化的演化提示。该方法结合了混合视角的人体动作控制、可演化的锚点视图定制和渐进式

PanoWorld

NewFree3D世界

PanoWorld 是一种生成空间世界模型，旨在根据平面图和风格参考对 VR 风格的游览进行一致的全屋全景合成。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合，使该工作流程更加实用。 PanoWorld 不是提供通用演示，而是针对具体的能力差距，并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的

Lyra 2

NewFree3D世界模特

Lyra 2 是一款用于探索生成 3D 世界的 NVIDIA 研究系统。它旨在创建摄像机控制的演练视频，并通过前馈重建将其提升为 3D。该产品的目标是长视野、3D 一致的世界生成，用户可以探索生成的环境，而不仅仅是观看固定的剪辑。

该系统解决了空间遗忘和时间漂移，这是长时间生成的演练中的两个常见问题。通过将生成与 3D 重建相结合

Waypoint 1.5

NewFreemium世界模特3D

Waypoint 1.5 是 Overworld 的实时 AI 世界模型，旨在将交互式生成的世界带入日常 GPU。它专注于通过减少通常与高端生成环境相关的硬件障碍，使世界模拟变得更容易。该产品面向那些想要实时世界而不依赖昂贵的工作站规模推理的创作者、开发者和研究人员。

该系统围绕实时世界生成和运行时效率进行了优化，使用模型和渲染改

HY World 2.0

NewFree世界模特开源

HY World 2.0是腾讯混元开源的多模态世界模型，用于重建、生成和模拟3D世界。它被设计为一个广泛的世界建模框架，可以跨模式推理并生成结构化的 3D 世界输出。该产品与游戏、机器人、虚拟生产、数字孪生和实体人工智能相关。

该系统将多模式输入与 3D 世界建模相结合，使其能够重建现有环境、生成新环境并支持模拟工作流程。从技术上

Inspatio World

NewFree世界模特视频

Inspatio World 是一个实时交互式 4D 世界模型，可将参考视频转变为动态可探索环境。它专为那些想要超越被动视频播放并与场景进行交互的用户而设计，就好像它是一个可导航的世界一样。该系统与世界模拟、沉浸式媒体、机器人评估和人工智能生成的环境相关。

该产品使用参考视频驱动的世界建模方法，其中输入视频充当场景动态、外观和空间

WorldAgents

NewFree3D 世界模型开源

WorldAgents 询问基础图像模型是否可以充当构建 3D 世界模型的代理。该项目使用多代理架构从 2D 基础模型合成 3D 一致的世界，将问题描述为协调的管道而不是单个整体生成器。这使其成为视觉模型和空间推理交叉研究的有用参考。

该系统围绕导向器、生成器和验证器进行组织，每个负责创建和过滤过程的不同部分。此设计有助于模型生成

VerseCrafter

NewPaid视频媒体制作

VerseCrafter 是一个可控的视频世界模型，提供对相机和多物体运动的明确的 4D 几何控制。它从大规模的野外数据中学习一个逼真且可控的视频世界先验，能够处理具有强大时空一致性的复杂动态场景。该模型允许用户指定目标相机轨迹和多物体 3D 高斯轨迹，从而在各种动态和静态场景中实现稳健的控制。

VerseCrafter 的框架包括

Marble World Model

NewFreemium3D世界模型

Marble 是 World Labs 开发的首个商用生成式世界模型，该公司由人工智能先驱李飞飞领导。它专注于使用文本提示、图像、视频和 3D 布局图等各种输入方法生成可编辑且持久的 3D 环境。该产品提供高保真度的空间一致性，并支持对生成的世界进行无缝探索，使其适用于游戏开发、电影视觉效果、虚拟现实和机器人模拟等应用。Marble 的独特之处在于它允

DeepVerse

NewPaid模拟视频生成

DeepVerse 是一个用作世界模型的 4D 自回归视频生成模型。它采用文本表示作为通用控制模态，从而能够最大限度地利用基础视频生成模型中固有的条件控制先验。这种设计选择具有两个主要优势：它能够跨不同的控制器架构实现可扩展的适用性，并展示跨叙事视角的稳健控制一致性。DeepVerse 通过对 4D 表示分布进行建模，实现了时间连贯性和长期记忆。

DIAMOND Diffusion for World Modeling

视频强化学习, 扩散模型

DIAMOND 是一种创新的强化学习代理，完全在扩散世界模型中进行训练。DIAMOND 由日内瓦大学、爱丁堡大学和微软研究院的研究人员开发，代表了强化学习世界建模的重大进步。

DIAMOND 的关键创新在于它使用扩散模型来生成世界模型，而不是像许多以前的方法那样依赖于离散潜在变量。这使得 DIAMOND 能够捕获更详细